iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 5
0
自我挑戰組

自動化技術在生活與工作上的應用系列 第 5

[Day5].用Selenium自動化爬圖片

  • 分享至 

  • xImage
  •  

其實爬蟲超多人寫的,且ptt的爬蟲資源也很多

google一下就一堆大神們,甚至更客製化

所以我明天應該會做個番外篇 !! 畢竟我也不是蟲王 ,能將爬蟲發揮到效能、 速度、跟突破各種反爬蟲的網頁的境界

回歸正題 ,今日終於要爬圖片了

圖片的重點就在於我們要找到"<img" 的標籤並將他 加上副檔名".png"

讓他成為一個圖檔能儲存在我們本機端

但ptt都是用imgur格式來存,所以必須要做以下幾個步驟
找到所有文章列表的文章內容
抓出文章內 imgur 相關的 url
透過正則表示式 (Regular Expression) 指定字串的格式。能辨識出屬於該格式的正規表示式為:
'^https?://(i.)?(m.)?imgur.com'
所以只要滿足這規則即可 找到所有圖片存在的方式

圖片跟連結通常都在標籤<a下面以href的屬性方式存在著
if d.find('a'): # 有超連結,表示文章存在,未被刪除
href = d.find('a')['href']
title = d.find('a').string
articles.append({
'title': title,
'href': href})

外傳: 最近看到react-native 的TINDER 蠻有趣的
可以順便把爬下來的圖片做進一步的範例學習

所以可能會外插個與自動化無關的內容


上一篇
[Day4].Selenium 自動化爬資料-2
下一篇
[Day 6]. 自動化圖片組成PDF
系列文
自動化技術在生活與工作上的應用29
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言